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摘要 ”高 帧 频 面 探 测 器 是 上 海 硬 X 射线 自由 电子 激光 装置 (Shanghai HIgh repetitioN rate xfel and Extreme light 
facility, SHINE) 上 开展 相干 衍射 成 像 、 串 行 晶体 学 等 科学 实验 的 关键 设备 。 面 探测 器 所 产生 的 海量 数据 的 高 
速 传输 和 处 理 对 数据 获取 (DAQ) 软件 提出 了 极 大 挑战 。 为 满足 百 万 像素 规模 、10kHz 帧 频 的 面 探测 器 数据 
传输 要 求 ，DAQ MKI S20 GB's"! 的 稳定 数据 传输 能 力 。 本 研究 开发 了 基于 C++ 的 分 布 式 DAQ 软件 ， 旨 在 
实现 高 速 并 行 的 数据 读 出 ， 满 足 高 帧 频 面 探 测 器 的 数据 获取 。 本 研究 成 功 实现 了 4 个 节点 20 GBs"! 的 高 通 
数据 传输 和 事例 重建 能 力 ， 并 对 数据 刻度 、 无 损 压 缩 等 数据 预 处 理 功能 以 及 软件 整体 的 分 布 式 运 行进 行 了 实 
现 和 测试 。 本 研究 可 以 为 采用 面 探测 器 的 相关 实验 的 超 高 通 量 数据 获取 提供 必要 支持 。 
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Abstract [Background]: High frame rate area detectors play a crucial role in experiments such as coherent 
diffraction imaging and serial crystallography conducted at the Shanghai HIgh repetitioN rate xfel and Extreme light 
facility (SHINE). Their high data transmission rates and extensive processing needs pose grand challenges for the 
data acquisition system. [Purpose]: To support the continuous operation of a megapixel detector working at 10kHz 
frame rate, the DAQ software must deliver a data throughput of no less than 20 GB-s"!. [Methods]: In order to meet 
the requirement of high throughput data readout and processing of many detector modules, this research developed a 
distributed DAQ software based on C++ language, which is designed to run on multiple servers in parallel. This 
research adopts a memory based MapReduce-like method to realize the online event reconstruction. And also tested 
the Bitshuffle+LZ4/ZSTD data compression algorithm. [Results]: The software successfully achieved a throughput of 
20GB:s"! for data transmission and event reconstruction by using 4 DAQ servers. It also includes the implementation 
and testing of various functions, such as data calibration, lossless compression, and the distributed operation 
capability of the whole system. [Conclusions]: This research will provide essential support for some related 
experiments using area detectors which require high throughput data acquisition 
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X 射线 自由 电子 激光 (X-ray Free Electronic Laser, XFEL) 是 当前 最 新 一 代 的 先进 光源 大 科学 平台 装 
有 具有 极为 优异 的 光子 性 能 。 以 建设 中 的 上 海 硬 X 射线 自由 电子 激光 装置 (Shanghai HIgh repetitioN rate 
xfel and Extreme light facility, SHINE) 为 例 , 其 具有 超 高 帧 频 (最 高 MHz)、 超 高 亮度 (三 10?? 光子 /脉冲 )、 
超 短 脉冲 〈 约 百 飞 秒 )、 超 强 相干 等 显著 特点 。 国 际 上 ， 美 国 、 德 国 、 日 本 、 瑞 士 等 众多 科技 强国 均 在 开展 
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XFEL 的 研究 和 建设 。XFEL 在 物理 、 化 学 、 材 料 、 生 命 等 科学 领域 应 用 非常 广泛 L193。 例如 基于 XFEL 的 


KE 
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串 行 晶体 学 (Serial Femtosecond Crystallography, SFX) 实验 技术 ， 无 需 冷 冻 在 室温 下 即 可 解析 蛋白质 


Ha AER. (AE, SEX 需要 在 短 时 间 内 采集 大 量 衍射 图 样 ， 对 高 帧 频 探 测 器 以 及 高 通 量 数据 获取 提出 了 极 
高 需求 BE64。2018 年 ， 欧 洲 自 由 电子 激光 装置 (Eu-XFEL ) 通过 实验 首次 证 实 了 飞 秒 串 行 晶体 学 在 MHz 级 


xi 


表 一 
为 应 对 科学 实验 对 面 探测 器 的 高 帧 频 、 大 动态 范 


6 脉冲 重复 频率 条 件 下 可 以 提供 高 质量 的 结构 解析 结果 铝 ， 也 说 明了 科学 实验 对 XFEL 的 重复 频率 等 性 
能 的 需求 在 不 断 提 升 。 


XFEL 实验 中 获取 MHz 量 级 的 全 帧 衍射 图 样 具 备 极 高 挑战 性 , 需要 超 快 面 探 测 器 对 图 像 信息 进行 采集 ， 
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列 出 了 部 分 XFEL 上 使 用 的 面 探测 器 。 考 虑 到 当前 XFEL 上 的 面 探测 器 还 不 成 熟 ， 且 没有 商业 产品 ， 


围 等 性 能 的 需求 ，SHINE 装置 规划 自主 研发 一 款 电 荷 积 4 


读 出 的 、 超 高 帧 频 面 探测 器 , 并 命名 为 STARLIGHT(SemiconducTor Array detectoR with Large dynamlc ranGe 


现 从 单 光子 分 辨 到 1 万 photons/pixel/pulse 的 动态 范围 。 


表 1 国际 上 现 有 和 在 研 的 高 帧 频 面 探测 器 性 能 比较 


Table 1 Performance comparison of high frame rate area detectors 


探测 器 像素 数 W 数据 速率 
detector number of pixels/Mpixel frame rate/kHz data rate/GB-s! 
CSPAD 2.3 0.12 0.5 
AGIPD-1M 1.0 4500(Burst) 7.0 
JUNGFRAU-4M 4.0 1.1 17.0 
ePixHR 4.0 5.0 40.0 
JUNGFRAU-16M 16.0 2.2 70.4 
STARLIGHT-1M 1.0 10.0 20.0 
STARLIGHT-4M 4.0 10.0 80.0 
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and cHarge inTegrating readout). STARLIGHT 的 目标 是 实现 三 10kHz 的 帧 刷新 频率 ， 并 在 12 keV 能 量 
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随 着 XFEL 装置 脉冲 重 频 和 面 探测 器 帧 频 的 提升 ， 科 学 实验 的 数据 产生 速率 也 在 不 断 增 大 ， 近 似 呈 指 
数 级 增长 , 每 两 年 翻 一 番 , 未 来 预计 可 达到 数 百 GBs! 9。 目前, AGIPD 探测 器 的 数据 处 理 软件 使 用 FPGA 
进行 简单 预 处 理 和 数据 转发 ， 进 一 步 处 理 主要 采用 服务 器 1。JUNGFRAU 探测 器 采用 了 单 服务 器 数据 接收 
与 处 理 方案 ,服务 器 内 通过 FPGA / GPU 进行 加 速 ,依次 实现 了 4M 像素 1.1kHz Wi F 9 GBs 4M 像 
素 2.2kHz WF 17 GB.s49 的 数据 接收 及 处 理 速 率 。 然 而 ， 与 数据 率 迅猛 增长 的 速度 相 比 ， 计 算 机 硬件 性 
能 的 提升 幅度 显然 滞后 ， 这 使 得 基于 传统 的 单 服务 器 进行 数据 获取 的 方案 变 得 越 来 越 困难 钙 。ePixHR. 探测 
器 的 数据 获取 通过 LCLS-II 的 数据 系统 00 实 现 。 为 应 对 该 探测 器 的 超 高 数据 通 量 ，LCLS-II 数据 系统 在 探 
测 器 前 端 部 署 Data Reduction Pipeline (DRP) 系统 ， 通 过 使 用 FPGA、GPU 和 CPU 混合 架构 以 及 多 个 节点 
的 分 布 式 架构 对 数据 进行 压缩 、 图 像 筛 选 等 处 理 ， 以 降低 整体 数据 通 量 00。 可 见 ， 为 应 对 面 探测 器 不 断 增 
长 的 数据 通 量 , 结合 节点 内 的 FPGA/GPU 异 构 加 速 ,有 必要 进一步 采用 多 节点 分 布 式 方案 进行 横向 扩展 。 

本 论文 将 围绕 面 探测 器 数据 获取 与 分 析 的 挑战 , 结合 SHINE 自 研 探测 器 STARLIGHT 的 实际 需求 , 提 
出 一 个 分 布 式 软件 架构 ， 以 实现 对 该 面 探测 器 超 高 通 量 数据 的 高 速 接收 和 实时 处 理 。 目 前 本 研究 先 只 采用 
CPU 处 理 器 进行 数据 采集 。 本 文 余下 章节 分 为 以 下 几 个 部 分 ， 第 1 节 介 绍 面 探测 器 数据 获取 软件 ， 第 2 节 
介绍 数据 获取 软件 架构 与 开发 ， 第 3 节 给 了 数据 获取 软件 的 测试 结果 。 


1 STARLIGHT 及 其 数据 获取 需求 


目前 应 用 于 XFEL 的 百 万 像素 面 探测 器 , 例如 运行 在 LCLS 的 CSPAD、Eu-XFEL 的 AGIPD ,以 及 SHINE 
正在 研发 的 STARLIGHT 均 采 用 模块 化 设计 021。STARLIGHT 探测 器 单 模块 像素 数量 为 2X8X128X128， 
帧 频 可 达到 为 10kHz， 预 计 每 个 像素 的 数据 占据 2 个 字 节 ， 对 应 每 个 前 端 模块 的 原始 数据 率 约 为 5 GBs! 
STARLIGHT-1M 包含 4 个 模块 ， 数 据 量 为 20 GBs-!; 而 STARLIGHT-4M 则 包含 16 个 模块 ， 数 据 量 将 达 
到 80 GBs-!1。 该 软件 的 性 能 指标 至 少 要 求 达到 STARLIGHT-1M 的 标准 ， 为 了 增加 其 可 扩展 性 ， 设 计 结 构 
则 按照 STARLIGHT-4M 进行 设计 。 图 一 展示 了 STARLIGHT 数据 获取 系统 的 硬件 结构 。 
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图 1 STARLIGHT 面 探 测 器 的 数据 获取 系统 的 硬件 架构 
Fig 1 DAQ hardware architecture of STARLIGHT area detector 
为 实现 STARLIGHT 探测 器 的 高 通 量 在 线 数据 获取 ， 其 数据 获取 软件 需要 持续 高 速 接收 来 自 探测 器 各 
模块 的 原始 实验 数据 。 数 据 接收 节点 与 后 端 读 出 电子 学 之 间 的 数据 传输 通道 需要 根据 性 能 及 实验 要 求 选取 
标准 网 络 传输 协议 ， 例 如 UDP 和 TCP。 面 探测 器 通过 多 个 前 端 模 块 进行 数据 获取 ， 每 个 前 端 模 块 发 送 的 
图 像 数据 仅 包 含 完整 实验 图 像 的 部 分 信息 ， 导 致 每 个 数据 接收 节点 只 能 接收 不 完整 的 数据 。 这 导致 对 分 布 
于 不 同 节点 的 同一 张 图 像 数据 进行 事例 筛选 、 在 线 分 析 等 处 理 较 为 困难 ， 因 此 需要 进行 在 线 事例 重建 ， 以 
将 各 接收 模块 的 图 像 数据 重新 分 发 并 汇集 、 组 合成 一 张 完 整 图 像 。 为 达成 高 通 量 实时 存储 的 目标 ， 软 件 需 
要 具备 对 数据 进行 实时 压缩 处 理 的 能 力 。 此 外 ， 为 提高 探测 器 的 用 户 友 好 度 ， 软 件 还 需要 为 用 户 提供 实时 
显示 运行 信息 及 调节 运行 参数 的 图 形 用 户 界面 (GUI) 。 
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2 软件 整体 架构 设计 与 模块 划分 


软件 系统 分 为 数据 获取 与 处 理 以 及 前 端 显示 两 部 分 ， 其 中 数据 获取 与 处 理 软件 采用 分 布 式 结构 ， 在 结 
构 上 借鉴 了 Map-Reduce 和 spark 的 理念 ， 由 多 个 独立 运行 的 服务 器 分 担 数 据 的 传输 和 处 理 ， 充 分 利用 多 服 
务 器 的 计算 与 内 存 资 源 、 采 用 流水 线 式 并 行 ， 可 大 幅 提升 数据 处 理 的 整体 通 量 0 区 。 软 件 的 各 模块 相互 独 
立 ， 通 过 监控 模块 实现 状态 同步 和 实时 控制 ， 各 模块 间 利 用 WebSocket 进行 命令 传递 和 监控 信息 的 交互 。 
前 端 显 示 软 件 提供 控制 和 显示 界面 ， 可 抽取 部 分 图 像 数 据 进行 可 视 化 显示 。 整 体 架构 如 图 二 所 示 。 
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图 2 整体 软件 架构 和 数据 流 
Fig 2 Overall software architecture and data flow 

在 数据 获取 与 处 理 的 阶段 ， 多 个 数据 接收 模块 (Receiver) 直接 接收 读 出 板 数据 ， 并 将 其 分 发 至 数据 
EERIK (Combiner) ， 用 于 事例 重建 。 事 例 重 建 的 目标 是 将 同一 时 刻 不 同 探测 器 模块 采集 到 的 部 分 图 像 
组 合成 完整 图 像 。 数 据 进一步 传递 至 数据 处 理 模块 ， 进 行 在 线 刻度 、 压 缩 和 存储 写 入 等 处 理 。 

软件 内 部 节点 间 采 用 ZeroMQ (ZMQ) 作为 高 通 量 数据 流 中 间 传 输 协 议 。 该 协议 具有 低 延 迟 、 高 吞吐 
量 和 “ 零 拷 贝 ” 等 传输 优势 ， 适 合 高 速 传输 大 量 数据 。 

数据 获取 软件 的 设计 主要 分 为 三 个 模块 ， 数 据 接收 模块 “Receiver) 、 事 例 重建 模块 (Combiner) 和 
ANTE PUTER (Processor) ， 其 中 包括 数据 刻度 和 实时 压缩 。 


2.1 数据 接收 模块 


探测 器 DAQ 软件 的 数据 接收 模块 是 至 关 重 要 的 组 成 部 分 ， 通 过 以 太 网 交换 机 与 各 探测 器 模块 的 后 端 
数据 读 出 电子 学 直接 连接 。 其 主要 职责 包括 数据 接收 、 绥 存 和 数据 转发 。 数 据 接 收 模块 可 同时 部 署 在 多 个 
数据 接收 节点 上 ， 以 在 高 数据 通 量 的 环境 中 并 行 地 接收 数据 。 

数据 接收 节点 与 后 端 数据 读 出 电子 学 之 间 的 数据 传输 协议 可 以 选择 标准 网 络 传输 协议 , 如 UDP EÈ TCP. 
UDP 是 一 种 非 连接 协议 ， 无 需 在 数据 传输 前 建立 连接 ， 具 有 较 小 的 系统 资源 要 求 。 尽 管 UDP 可 能 导致 数 
据 丢 失 ， 但 其 实现 相对 简单 。 与 之 相 比 ，TCP 是 一 种 面向 连接 的 协议 ， 需 要 建立 可 靠 的 连接 。 

根据 探测 器 硬件 配置 ， 可 以 在 UDP 和 TCP 之 间 进 行 选择 。 一 些 探测 器 〈 如 JUNGFRAU) 的 前 端 电子 
学 目前 采用 UDP 协议 。 在 该 协议 下 可 能 会 丢失 数据 ， 对 于 丢失 的 数据 包 ， 软 件 上 可 通过 将 丢失 位 置 补充 为 
空白 数据 的 方式 进行 处 理 03。 对 图 像 完整 性 要 求 高 的 实验 ， 如 和 射线 光子 关联 谱 PCS) 实验 ， 数 据 丢 
失 会 产生 显著 影响 。 对 于 正在 研发 的 STARLIGHT 探测 器 ， 鉴 于 实验 对 图 像 完 整 性 的 高 需求 ， 选 择 TCP H 
行 传输 更 为 合适 。 
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2.2 事例 重建 模块 


图 像 数据 的 事例 重建 可 以 依据 两 种 关键 信息 ， 一 是 探测 器 各 模块 内 部 的 统一 时 间 戳 信息 ; 二 是 由 装置 
定时 系统 提供 的 X 射线 脉冲 编号 信息 (Bunch ID )。 事 例 重建 即 是 将 具有 相同 时 间 惟 或 Bunch ID 的 部 分 图 
像 数 据 合并 到 一 起 。 

在 Eu-XFEL 中 ， 事 例 重 建 在 数据 传 入 计算 集群 前 完成 ,采用 了 名 为 Train Builder 的 电子 学 硬件 ， 通 过 
多 个 FPGA 板 卡 对 图 像 数 据 进行 重组 09。 参 考 Map-Reduce 中 的 数据 Shuffle 过 程 ， 本 文 将 给 出 一 种 基于 服 
务 器 和 交换 机 的 事例 重建 软件 实现 方案 01。 它 参考 Map 和 Reduce 中 数据 跨 节 点 交换 的 过 程 ， 可 充分 利 
用 每 个 节点 的 网 络 带 宽 。 

如 图 三 所 示 , 事例 重建 模块 接收 来 自 所 有 数据 接收 模块 分 发 的 数据 , 依据 原始 数据 包 中 的 Bunch ID 或 
时 间 礁 ,将 同一 时 间 采 和 集 的 不 同 模块 的 图 像 数 据 合 并 成 一 张 完整 图 像 (事例 )。 随 后 ,将 完整 图 像 发 送 给 数 
据 处 理 模块 进行 后 续 处 理 。 在 运行 时 ， 为 了 实现 负载 均衡 ， 数 据 接收 模块 在 分 发 数据 时 可 以 先 对 Bunch ID 
进行 哈 希 运算 ， 然 后 对 事例 重建 模块 的 数量 取 余 ， 根 据 余数 将 数据 发 送 到 对 应 的 事例 重建 模块 中 ， 以 确保 
所 有 数据 尽 可 能 均匀 地 分 发 到 不 同 的 节点 ， 如 公式 1 所 示 。 


m3pl m2pl1 mlpl 
io e 

m3p2 m2p2 mlp2 
—— ———+ — 


m3p3 m2p3 mlp3 
—— ie es 


3 m2p4 1 
m3p4 p mlp4 


图 3 事例 重建 架构 设计 


Fig 3 Design of event reconstruction 
i= hash (BunchID)mod n (1) 


事例 重建 模块 采用 多 线程 方式 ， 每 个 线程 负责 从 相应 数据 接收 模块 接收 数据 ， 将 其 放 入 与 各 探测 器 模 
块 对 应 的 部 分 图 像 缓存 队列 中 。 然后 , 将 具有 相同 Bunch ID 的 各 模块 图 像 进 行 合并 , 形成 完整 的 图 像 数据 。 
进一步 ， 将 完整 图 像 放 入 另 一 队列 中 ， 等 待 数据 处 理 模块 做 后 续 处 理 。 为 满足 超 高 通 量 数据 处 理 的 需求 ， 
事例 重建 软件 通常 以 分 布 式 的 方式 部 署 在 多 台 服 务 器 协同 运行 。 


2.3 数据 预 处 理 模块 


为 了 压低 整体 数据 通 量 以 尽 可 能 降低 存储 的 压力 ， 需 要 进行 数据 的 在 线 预 处 理 ， 包 括 数据 刻度 、 数 据 
压缩 和 和 入选、 数据 的 格式 化 存储 等 。 本 文 对 其 中 的 在 线 数据 刻度 和 压缩 算法 进行 了 研究 和 测试 。 
2.3.1 ”数据 刻度 

从 探测 器 模块 直接 传输 过 来 的 每 个 像素 的 信号 幅度 数据 为 原始 ADC 数据 ， 它 包含 了 各 电子 学 通道 的 
基线 (pedestal) 和 增益 〈gain ) 等 不 均匀 性 。 所 以 在 数据 处 理 时 需要 扣除 基线 部 分 ， 并 对 增益 的 不 均匀 性 
等 进行 修正 ， 以 还 原 出 沉积 能 量 或 光子 数 物 理 量 04。 参考 JUNGFRAU、AGIPD 等 面 探测 器 ， 该 修正 可 由 
AR (2) 表示 09]， 其 中 ，ADU 表示 模 数 转换 器 CADC) 单位 ， 即 模拟 信号 被 转换 为 数字 信号 的 幅度 。 
ADC [ADU ]- pedestal [ADU] 

gain [ADU / keV] 


基于 公式 〈2)， 数 据 刻度 模块 需 对 每 张 图 像 的 所 有 像素 的 ADC 数据 进行 转换 。 首 先 ， 从 文件 读 取 各 
通道 的 刻度 参数 数据 , 包括 各 级 增益 和 对 应 的 基线 参数 ,并 将 其 存 入 相应 的 结构 体 中 。 随 后 , 按照 公式 (2) 
对 原始 数据 中 的 各 通道 ADC 值 进行 计算 ， 以 还 原 出 各 像素 的 沉积 能 量 。 需 要 说 明 的 是 ， 探 测 器 的 基线 、 


(2) 


energy [keV] = 
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核 技 术 
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增益 等 刻度 参数 本 身 的 测量 需要 进行 专门 的 研究 和 实验 ， 本 文 暂 不 涉及 。 为 测试 软件 性 能 ， 本 文 目 


模拟 刻度 参数 进行 测试 。 
2.3.2 数据 压缩 


数据 压缩 方面 ，JUNGFRAU 采用 了 bitshuffle 数据 预 处 理 方 法 ， 如 图 四 所 示 ， 先 对 数据 进行 重新 排列 ， 


再 结合 后 续 的 压缩 算法 完成 压缩 。 在 实验 过 程 中 ， 


心 位 置 较 远 的 区 域 。 因 此 面 探测 器 获取 的 衍射 图 像 大 部 分 区 域 的 像素 幅度 值 相对 均匀 且 数 值 较 小 ， 
16 位 二 进 制 数 的 高 位 基本 为 0。 根 据 该 数据 特点 ，bitshuffle 通过 对 图 像 数 所 


般 情况 下 探测 器 的 大 部 区 域 信号 较 弱 ， 特 别 是 距离 中 


即 每 个 


进行 位 级 别 的 分 块 转 置 ， 可 以 


将 大 量 位 于 高 位 的 0 位 合并 到 完整 字 节 中 。 该 过 程 不 会 改变 原始 数据 的 大 小 ， 但 能 大 大 提高 数据 内 容 的 重 


复 度 。 结 合 依赖 于 索引 的 字典 压缩 ， 此 方法 可 以 大 必 
] FPGA 模块 完成 bitshuffle 转 置 操 作 ， 然 后 在 CPU 上 由 软件 进一步 使 用 通 月 
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0000 0001 
0000 0100 
0001 1111 
0000 1000 
0000 0010 
0000 1001 
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bit level transpose 0100 1101 


1001 1101 
0000 1010 
1110 1001 


4 bitshuffle 流程 
Fig 4 bitshuffle process 


本 文 在 软件 层面 对 该 压缩 算法 进行 了 测试 。bitshuffle 算法 的 实现 采 月 


采用 了 LZ4 和 ZSTD 两 种 常用 算法 库 忆 -22。 


3 软件 性 能 测试 与 调 优 


鉴于 STARLIGHT 探测 器 尚 处 于 研发 阶段 ， 目 


的 压缩 全 


的 压缩 流程 分 为 两 步 : 使 
法 完成 压缩 操作 四。 


前 还 未 能 产生 原始 数据 ， 本 文采 月 


方式 进行 数据 获取 软件 的 性 能 测试 。 模 拟 数据 选 


和 评估 软件 性 能 ， 服务 器 间 的 数据 交换 物理 层 采 上 月 


现 类 以 太 网 数据 传输 9。 单 节点 性 能 测试 集群 包含 台 服 务 器 (一 下 简称 集群 B)， 
存 ， 用 作 数 据 发 送 服务 器 ,1 台 用 作 数 据 接收 和 处 理 服务 器 ; 集群 B 的 
机 互联 ，4 台数 据 发 送 服务 器 各 具有 25Gbps 的 带宽 ， 数 据 接收 服务 器 具备 100Gbps 带宽 。 

表 2 测试 服务 器 配置 


Table 2 Test server configuration 


服务 器 采 


H TIURI, BED A a 


日 模拟 发 送 实验 数据 的 
公开 发 表 的 CXIDB ID 83 数据 集 ， 该 数据 集 来 自 欧洲 自 
由 电子 激光 装置 基于 AGPID 探测 器 开展 的 飞 秒 串 行 晶体 学 实验 3]。 

表 二 显示 了 分 布 式 测试 和 单 节 点 性 能 测试 分 别 采 用 的 服务 器 集群 
台 服 务 器 〈 以 下 简称 集群 A)， 其 中 4 台 用 于 模拟 数据 发 送 ， 另 外 4 台 


的 配置 参数 。 分 布 式 测试 集 群 包含 8 
用 于 数据 接收 与 处 理 ; 为 更 好 地 测试 
H Y 100G InfiniBand (IB) 网 络 ， 软 件 上 通过 IPoIB 模块 实 
其 中 4 台 具 备 较 大 的 内 
一 台 25Gbps 以 太 网 交换 


服务 器 集群 服务 器 用 途 CPU 型 号 内 存 大 小 网 卡带 宽 
network card 
Server cluster Server role CPU model memory size/GB . 
bandwidth/Gbps 
集群 A 分 布 式 测试 
Intel Xeon 6132 192 100 
Cluster A Distributed testing 
性 能 测试 (接收 ) 
集群 B Performance Intel Xeon 6342 251 100 
Cluster B testing(receive) 
性 能 测试 (发 送 ) Intel Xeon 6334 503 25 
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高 帧 频 面 探 测 器 分 布 式 数 拉 


Hi 


x 


$ 


+ 


取 软 件 


Performance 


testing(sending) 


3.1 数据 传输 


在 数据 传输 方面 ， 本 研究 在 主要 集群 A 


上 对 多 种 数据 传输 方式 进行 也 


能 测试 和 比较 。 本 研究 主要 测 


试 了 TCP 数据 传输 , 分 别 包 括 采 用 BSD socket API. boost::asio 库 以 及 线程 的 固定 CPU 核 绑 定 这 几 种 方式 ， 
并 对 基于 boost::asio 库 的 同步 和 异步 模式 进行 了 比较 。 
如 图 五 (a) 所 示 , 直接 调用 BSD socket API 的 测试 性 能 随 着 线程 数量 的 增加 逐渐 上 升 , 但 总 体 速率 较 慢 ， 


4 个 线程 的 同步 接收 速率 大 约 在 5.2GBs-1。 当 采 月 
改善 明显 ，4 个 线程 时 即 可 达到 7.3GB.:s- 的 接收 速率 。 如 图 


H boost::asio 库 后 性 能 有 所 改善 ， 特 别 是 在 多 线程 情况 下 


五 (b) 所 示 ， 在 使 用 boost::asio 库 在 同步 和 异步 


模式 数据 传输 速率 对 比 中 ， 可 以 看 到 同步 模式 传输 的 速率 优 于 异步 模式 。 如 图 五 (c) 所 示 ， 线 程 绑 定 到 固定 
CPU 核 ， 通 过 减少 线程 间 的 竞争 和 上 下 文 切 换 来 提高 数据 接收 效率 ， 进 一 步 提升 了 性 能 ， 将 四 个 线程 的 同 


步 数据 接收 速率 提升 至 8GB-s! 


transfer rate/GB's 


transfer rate/GB!s 
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图 STCP 数据 传输 性 
库 时 同步 和 异步 模式 下 速率 对 比 


能 测试 (a) 采 用 


©) X 


(c) 


BSD socket API 与 boost::asio 库 在 同步 模式 时 的 速率 对 比 (b) 采用 boost::asio 


| boost::asio 库 时 间 步 模式 传输 有 无 线程 CPU 核 绑 定 的 对 比 


Fig 5 TCP-based performance test (a) Comparison of the speed of synchronous transmission between kernel API direct call and 


boost library (b) Comparison of synchronous and asynchronous speed under boost library (c) Comparison of synchronous 


transmission with and without thread binding under boost library 


t 


FE 能 测试 结果 表明 ， 使 用 boost::asio 


boost::asio 库 时 ， 同 步 模式 下 的 数据 传输 通 量 更 高 ， 更 


Ea 


库 相 较 于 直接 调 


BSD 


符合 


口 


能 更 好 的 集 和 


外 ， 将 线程 绑 定 到 固定 CPU 核心 可 降 1 
本 研究 也 采用 数据 接收 节点 己 
库 的 情况 下 ， 同 步 TCP 数据 传输 时 的 自 


限 (25Gbps )。 进 一 步 使 
数据 传输 


单线 程 很 
3.2 事例 重建 


本 研究 进一步 对 软件 的 数据 接收 及 和 寻 


测试 两 种 情况 进行 介绍 。 
3.2.1 单 节 点 测试 
XH 


线程 接收 速率 


可 达 2.98 


实现 ， 但 可 以 通过 2 个 线程 同时 接收 实现 。 这 需要 1! 


E 


HEN 


JE 


=g 


socket API， 传 输 速 率 更 优 。 同 时 ， 在 采 月 


H 


对 探测 器 各 模块 原始 数据 的 实时 高 速 接 收 。 另 
氏 线 程 切换 开销 ， 可 进一步 提高 数据 接收 性 能 。 
FB 进行 了 测试 。 在 绑 定 单个 CPU 核心 、 使 


用 boost::asio 


GB.s1， 几 乎 达到 了 数据 发 送 网 卡 的 带宽 上 


四 台 服 务 器 模拟 探测 器 模块 进行 多 线程 数据 发 送 和 接收 测试 ， 在 4 个 线程 下 ， 
速率 即 可 达到 11.6GB.s1， 接 近 数 据 接收 网 卡 的 带宽 


如 上 所 述 ，STARLIGHT 探测 器 单 模块 的 原始 数据 率 可 达到 


限 (100Gbps)。 
5GBs-1。 根 据 测 斌 结果， 该 数据 接收 速率 


模块 的 运行 进行 了 


H CXIDB ID 83 数据 集 生 成 的 AGIPD 探测 器 模拟 数据 ， 在 集群 B 的 


16 个 模拟 数据 发 送 软件 ， 模 拟 16 个 探测 器 模块 向 该 集 条 


收服 务 器 中 同时 运行 数据 接收 模块 和 事 


测试 过 程 中 ， 数 据 传 输 的 总 速率 维持 在 
明 在 线 事例 重建 的 速率 不 低 卫 
3.2.2 节点 测试 


i 


为 测 ; 
事例 重建 模块 进行 了 测试 。 利 用 该 集 和 
点 进行 数据 接收 和 


E 


电子 学 数据 输出 端 支持 单口 多 连接 。 


关 合 测试 。 下 面 分 单 节点 测试 和 多 节点 


四 台数 据 发 送 服务 器 


共 运 行 


的 接收 服务 器 持续 发 送 原始 图 像 数据 。 在 数据 接 


进行 测试 时 ， 使 月 
事例 重建 ， 实 测 四 个 节点 并 行 数据 接 


宽 利 用 的 监 潜 
据 接 收 节点 音 


内 部 的 数据 交换 无 需 经 过 网 1 


| 发 现 ， 数 据 接收 节点 的 带宽 大 约 为 数据 发 送 节 点 昼 
bP 署 在 相同 的 服务 嚣 上， 数据 接收 和 事例 
于 单独 接收 的 带宽 。 图 六 显示 了 上 述 测试 中 单 节点 网 卡 的 带宽 
FE， 而 每 个 节点 需要 从 网 卡 接收 其 


列 重 建 模块 , 实时 进行 数据 接收 和 事例 台 
11.51GBs-!， 达 到 网 络 带 宽 上 限 ，CPU 仍 有 30% 以 上 的 盔 余 。 这 说 
F 数 据 接收 的 速率 ， 且 CPU 资源 利 月 


Sig ae 


运行 30 


EE 
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持续 


分 钟 。 


HBAR. 


式 在 多 节点 分 布 式 环境 下 软件 的 工作 性 能 和 稳定 性 ， 进 


步 采 用 了 集群 A 对 该 软件 的 数据 接收 、 
个 节点 模拟 探测 器 数据 发 送 ， 另 外 四 个 节 


0 


HHP 
Nc Be SF 


片 


HEHE Trl 


HH 


HE 


站 


列 重建 总 速率 约 为 23.5GB.s1。 通 过 网 卡 
宽 的 1.75 倍 。 这 是 由 于 事例 重建 节点 和 数 
肖 耗 同一 网 卡 的 带宽 ， 总 体 占据 的 带宽 会 高 


条 


XXXXXX-8 


占用 情况 。 在 


=i 


TH DL Tay 
事例 重建 过 程 中 ， 在 相同 节点 


三 个 节点 分 发 的 数据 。 攻 加 来 自 数据 发 送 


商 琨 琳 等 ， 高 帧 频 面 探测 器 分 布 式 数据 获取 软件 研究 


节点 的 数据 流量 ， 可 以 算出 数据 接收 节点 与 数据 发 送 节 点 的 带宽 占用 比 为 G + 有 和 /4， 即 得 到 上 述 1.75 的 
因子 。 根 据 如 上 分 析 ， 单 个 节点 的 总 数据 接收 通 量 达到 了 约 10.3GBs1， 接 近 达 到 单个 节点 的 网 络 带 宽 

限 ， 这 可 以 解释 为 何 4 节点 的 事例 重建 速率 低 于 预期 的 40GBs-! 以 上 速率 。 实 际 部 署 时 ， 数 据 接收 会 采用 
以 太 网 ， 事 例 重 建 可 采用 专用 于 集群 内 部 数据 交换 的 IB 网 ， 两 者 分 离 ， 从 而 可 以 避免 该 带宽 限制 。 
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4.4GB/ s! 4.4GB/ s! 


图 6 多 节点 事例 重建 测试 带宽 分 析 
Fig 6 Multi-node test bandwidth analysis 


3.3 数据 压缩 


在 数据 压缩 测试 中 ， 针 对 相同 模拟 数据 采用 Lz4 和 ZSTD 两 种 不 同 压缩 方法 进行 了 压缩 速率 与 压缩 率 
的 测试 。ZSTD 压缩 算法 可 以 调节 压缩 级 别 ， 级 别 越 高 ， 压 缩 速度 越 慢 ， 而 压缩 率 则 越 高 。 本 研究 在 进行 
bitshuffle 结合 ZSTD 压缩 测试 时 ， 压 缩 级 别 分 别 采 用 了 1、5、10 三 种 。 测 试 结果 见 表 三 ， 其 中 括号 内 的 
数字 为 ZSTD 的 压缩 级 别 。 如 表 三 所 示 ， 在 使 用 bitshuffle 和 Lz4 进行 压缩 时 ， 相 较 于 ZSTD 具有 更 快 的 压 
缩 速率 , 但 压缩 率 较 低 ; 而 使 用 bitshuffle 和 ZSTD 时 ， 则 有 具有 更 高 的 压缩 率 ,， 但 压缩 速率 降低 明显 。 另 外 ， 
在 单独 使 用 Lz4 进行 压缩 时 ， 压 缩 后 的 文件 较 源 文件 更 大 ， 可 能 原因 一 方面 是 Lz4 没有 对 原始 数据 进行 有 
效 压 缩 ， 同 时 会 增加 一 些 字典 索引 等 额外 数据 。 


表 3 压缩 速率 与 压缩 率 测试 


Table 3 Test for Compression rate and compression ratio 


压缩 方式 压缩 速度 压缩 率 
compress method compress speed//MB-s! compress ratio 
bitshuffle + Lz4 771.2 1.98 

bitshuffle + ZSTD (1) 432.7 3.91 
bitshuffle + ZSTD (5) 192.7 4.49 
bitshuffle + ZSTD (10) 84.6 4.78 
Lz4 624.2 <1 

ZSTD (5) 195.1 1.71 


2023 年 JUNGFRAU 探测 器 相关 数据 处 理论 文中 ， 使 用 FPGA 进行 bitshuffle 处 理 ， 结 合 服务 器 上 的 
Lz4 算法 压缩 , 实现 了 5.7 的 压缩 率 口 。 在 本 文 的 测试 中 发 现 , 实际 的 压缩 率 未 能 达到 该 文献 的 最 高 压缩 率 。 
可 能 的 原因 是 , 在 实际 实验 中 压缩 率 会 受到 原始 图 像 数 据 本 身 的 特性 影响 。 例如 图 像 整体 信号 幅度 的 大 小 、 
探测 器 本 身 各 像素 的 噪声 大 小 等 ， 均 会 影响 bitshuffle 后 的 数据 重复 度 ， 进 一 步 影 响 压 缩 率 。 


3.4 前 端 界面 


前 端 界面 模块 可 抽取 和 实时 显示 部 分 图 像 ， 收 集运 行 时 信息 并 监视 软件 的 运行 状态 。 此 外 ， 该 模块 负 
责 向 其 它 软件 模块 发 送 运行 时 参数 ， 包 括 配 置 文件 等 ， 以 进行 在 线 参数 调节 。 例 如 压缩 算法 和 压缩 级 别 选 
择 、 数 据 文 件 的 存储 格式 和 路 径 等 。 与 此 同时 ， 该 模块 还 可 以 与 后 端 电子 学 进行 通信 ， 以 发 送 指令 进行 探 
测 器 的 慢 控 。 本 研究 对 该 界面 进行 了 前 期 测试 开发 ， 图 七 给 出 了 一 个 示例 。 图 七 中 显示 了 经 过 事例 重建 和 
刻度 后 的 一 张 完整 的 AGIPD 探测 器 的 探测 图 像 数据 。 测 试 数据 来 自 CXIDB ID 83 数据 集 。 
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DAQMainWindow 
PANEL CONFIG ANALYSIS 
ERIA tal) a | Operating parameters 
Ce 
| | | ee ee! | | | | | UpdateTime 2023-11-23 13:31:43 
1 2 
s EF 
m ee File Floder starlight/test/data 
Number of triggers i 
LEVEL INFO 
Receiver Mode = 16 
TYPE Comman d 
INFO Comman id Sent Successi fully CONFIG 


7 前 端 界面 示例 


Fig 7 Front-end interface test 
3.5 软件 整体 运行 测试 


软件 整体 运行 测试 包括 上 述 的 数据 传输 、 事 例 重建 、 数 据 刻 度 和 压缩 的 全 流程 测试 。 本 研究 分 别 对 其 
进行 了 单 节点 性 能 测试 与 多 节点 分 布 式 测试 ， 所 采用 的 硬件 配置 与 事例 重建 的 测试 相同 。 在 多 节点 分 布 式 
测试 中 ， 集 群 A 中 的 四 台 发 送 服务 器 每 台 各 部 署 四 个 数据 发 送 软件 进程 ， 持 续 以 5000 帧 每 秒 的 设 定 速率 
读 取 数 据 包 并 发 送出 去 ， 四 台数 据 接收 服务 器 各 部 署 四 个 数据 接收 软件 进程 、 一 个 事例 重建 软件 进程 以 及 
四 个 数据 预 处 理 软件 进程 。 软 件 运 行 过 程 中 的 CPU 平均 使 用 率 约 为 70%， 整 体 的 数据 处 理 速率 约 为 
8.6GB.s1;， 在 单 节点 性 能 测试 中 ， 集 群 B 的 一 台数 据 接收 服务 器 在 事例 重建 测试 的 基础 上 同时 部 署 了 四 个 
数据 预 处 理 软件 。 软 件 运行 时 CPU 平均 使 用 率 约 为 85%， 整 体 的 数据 处 理 的 速率 为 3.4 GB:s!。 可 见 ， 仅 
使 用 当前 的 服务 器 还 很 难 满 足 面 探测 器 达到 几 十 GBs) 通 量 的 数据 处 理 需 求 。 经 分 步 测试 分 析 ， 发 现 数据 
刻度 在 占 满 单个 CPU 核 的 情况 下 处 理 速率 只 能 达到 200MB“。s-+， 在 总 体 运 行 中 占据 了 过 多 的 CPU 资源 。 
可 以 看 出 ， 目 前 仅 使 用 CPU 进行 刻度 与 压缩 很 难 满足 需求 。 虽 然 可 以 通过 增加 服务 器 和 CPU 的 数量 提升 
整体 数据 处 理 通 量 ， 但 面 对 几 十 甚至 上 百 GBs! 的 原始 数据 流 ， 需 要 采用 的 服务 器 集群 规模 将 较为 庞大 。 
为 控制 整体 服务 器 集群 规模 ， 提 高 计算 密度 ， 采 用 FPGA. GPU 等 加 速 卡 进行 数据 处 理 加 速 将 是 必要 的 。 


4 总 结 与 展望 


面 对 高 帧 频 面 探测 器 超 高 通 量 数据 获取 和 分 析 的 挑战 , 为 满足 SHINE 装置 对 高 传输 速率 和 高 数据 预 处 
理性 能 的 需求 ,本 文 基于 C++ 语言 开展 了 一 系列 分 布 式 的 高 性 能 数据 获取 和 预 处 理 软件 的 开发 和 测试 研究 。 
本 文 首 先 对 数据 传输 的 方式 和 软件 进行 了 测试 和 对 比分 析 ， 利 用 boost::asio 库 在 同步 模式 下 实现 了 单线 程 
2.98 GB-s 的 TCP 数据 接收 速率 。 本 文 提出 了 一 种 基于 交换 机 和 服务 器 软件 的 在 线 事例 重建 方法 ， 实 现 了 
单 节点 约 11.51 GBs! 原始 数据 接收 和 在 线 事例 重建 速率 ， 以 及 4 节点 约 23.5 GBs-! 的 事例 重建 速率 。 测 
试 结果 表明 ， 本 文 提出 的 基于 软件 的 事例 重建 方法 可 以 在 多 个 节点 上 高 速 稳定 运行 ， 具 有 较 好 的 横向 扩展 
性 。 同 时 ， 本 文 对 数据 刻度 和 无 损 压 缩 等 数据 预 处 理 功 能 进行 了 开发 和 测试 ， 评 估 了 bitshuffle+Lz4/ZSTD 
数据 压缩 方法 的 性 能 ， 为 未 来 对 该 探测 器 数据 获取 软件 的 进一步 开发 及 应 用 打下 基础 。 


lint 
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硬件 ， 发 现 这 两 个 步 又 会 导致 大 量 的 CPU 资源 


除 此 以 外 ,软件 仍 存在 一 些 值得 优化 和 改进 的 部 分 。 在 数据 刻度 与 压缩 方面 ， 目 前 仅 采用 了 CPU 计生 
占用 ， 影 响 整体 软件 的 运 到 行 。 为 了 缓解 服务 器 的 负担 ， 未 来 
缩 等 计算 密集 型 的 数据 处 理 进行 加 速 将 十 分 必要 。 


利用 加 速 卡 ， 包 括 FPGA/GPU 对 数据 刻度 和 压 
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